상관관계와 인과관계 (문단 편집)

=== 쟁점: 설명모형에서와 예측모형에서의 상관관계의 의미 ===
책임 있는 의사결정을 하기 위해서는 상관관계 정보만으로도 충분할까, 아니면 인과관계까지 입증되어야 할까? 놀랍게도, 학문적으로 추구하는 방향에 따라서 이에 대한 답이 달라질 수 있다. 예를 들어, 발전소를 운영하는 기업의 주식가치가 남미의 바나나 생산량과 강한 상관관계를 가지고 있지만, 둘 사이에는 상식적으로 아무런 인과관계가 없다고 기대될 수 있다. 더 극단적인 예로는 위에서 소개했던 여름철 익사사고와 아이스크림 판매량 간의 상관관계를 생각할 수 있다. 이러한 상관관계 정보에만 의지해서 어떤 의사결정을 하는 것이 '충분하다' 고 말할 수 있을까? 이것은 그 의사결정의 목적이 '''설명'''인지 아니면 '''예측'''인지에 따라서 달라지게 된다.

위의 사례들을 바탕으로 내려지는 의사결정을 위험하다고 생각했다면 설명적 모형을 바탕으로 하는 의사결정을 떠올린 것이다. [[의학]], [[약학]], [[심리학]] 등의 분야들에서는 여러 변인들 간의 인과적 메커니즘을 엄밀하게 분해하는 것이 학술활동의 핵심이 되며, 이들은 으레 설명을 목적으로 하는 모형을 수립하게 된다. 상경계열을 제외한 일반 [[사회과학]]계에도 이 논리가 대체로 통용된다. 이 인식은 국가공인 자격시험에서도 마찬가지다. [[사회조사분석사]] 시험범위에서는 상관관계 이상의 인과관계를 설득하려면 상기했던 '비허위성' 이 반드시 입증되어야 한다고 가르친다. 이 분야들에서는 여름철 익사사고와 아이스크림 판매량에 대해 잘못된 인과관계로 설명하는 함정에 빠지는 것을 극도로 경계한다.

반면 위의 사례들을 바탕으로 내려지는 의사결정이 현실적으로 해볼 만한 것이라고 생각했다면 예측모형을 바탕으로 하는 의사결정을 떠올린 것이다. [[경제학]], [[경영학]], [[데이터과학]] 등의 분야들에서는 이 변인(들)의 변화를 통해 저 변인의 변화를 예측하는 것이 학술활동의 핵심이 되며, 이들은 으레 예측을 목적으로 하는 모형을 수립하게 된다.[* 특히 [[시계열 분석|시계열 데이터]]를 바탕으로 하는 예측은 예상(forecasting)이라고 불리는 특수한 예측 활동에 속하며, 예상을 가르치는 많은 교과서들은 상관관계 정보만으로도 의사결정을 하기에 충분하다고 가르치고 있다.] 이들은 비허위성이 보장되는 인과관계를 ([[ceteris paribus|다른 모든 것이 불변한다는 전제 하에]]) 단순히 '특수한 종류의' 상관관계일 뿐이라고 인식한다. 심지어 국가공인 자격시험인 [[국가공인 데이터분석 전문가|ADP/ADsP]] 시험범위에서는 [[빅데이터]]가 도래함으로써 '인과관계의 시대는 가고 상관관계의 시대가 왔다' 고까지 호언한다. 이 분야들에서는 아이스크림 판매량이 늘어날 때쯤이면 익사사고 발생건수도 늘어나리라고 무난히 예측할 수 있다고 본다.

어느 쪽이 옳은 것일까? 이것은 당초의 문제의 해결을 위해서 설명모형이 적합한지 아니면 예측모형이 적합한지를 따져봐야 하는 상황이다. "왜 익사사고가 발생하는가" 같은 질문에 대해서는 설명모형을 세워야 하고, 당연히 인과관계 정보가 필요하다. "언제 익사사고가 발생하는가" 같은 질문에 대해서는 예측모형을 세울 수 있고, 이때는 아이스크림 판매량과의 상관관계만으로도 충분히 실용적인 예측이 나온다. 하지만 사회과학 학문들 간의 인식차가 매우 크다 보니[* 대표적으로 [[경제학]]계의 경우 자신들을 일반적인 사회과학 분야들로부터 분리시켜 생각하는 경향이 있으며 오히려 [[통계학]] 및 [[수학]]계에 맹렬한 소속감을 드러내는 인물들도 있다. 문제는 학문적 정체성이 방법론적 깊이의 우열을 결정하지는 않는다는 것이다. 메타분석 논의의 깊이가 얕은 분야라고 해서 [[의학]]계보다 방법론적으로 덜 엄격하다고 말할 수 없는 것과 같다. 마찬가지로 인과관계를 모르는 상태로 내려지는 의사결정에 대해서 엄격하지 못하다고 무작정 비판하는 것도 잘못되었다.] 서로 다른 분야의 전공자들이 만나면 잡음이 발생하게 된다.

가상의 예를 들자면, 예측모형을 정당화하기 위해 상관관계 데이터만을 투입한 하급자 연구원에게 상급자 연구원이 왜 인과관계를 입증하지 않았느냐며 타박하는 상황을 들 수 있다. 이때 하급자 연구원은 '이런 방식의 의사결정은 업계 표준이고 대학원에서도 당연히 그렇게 하는 거라고 배웠는데 윗사람이 뭣도 모르면서 쓸데없이 꼰대질한다' 고 생각하게 마련이고, 상급자 연구원은 '통계 하나만큼은 자신있다고 해서 믿고 맡겨 봤더니 이건 뭐 기초적인 연구논리도 모르는 바보였다' 라며 줄담배를 태우게 마련이다. 이것은 윗사람은 설명모형이 필요하다고 봤던 반면 아랫사람은 예측모형으로 그 문제에 접근해도 된다고 봤기 때문이다. 이것은 문제의 정의 단계에서부터 명확하지 못했기 때문에 이런 혼선이 발생한 것이다.

정리하면, 양쪽 모두 상황에 따라서 적합할 수도 있지만 그렇지 않을 수도 있다. 설명모형이 필요한 상황에서 인과관계가 입증되지 않았다면 아예 솔직하게 "우리 손에 있는 건 그저 한 시점의 상관관계 데이터뿐이고, 이것만으로 인과관계를 분석하기엔 택도 없으니, [[GG|우리는 인과관계 분석은 포기하겠다]]" 고 보고하는 것이 신뢰감을 준다. 정말 까다롭게 구축한 [[구조방정식|SEM]]에서 가정되는 인과성조차 학자들의 맹폭격을 받는 게 비일비재한 상황에서 "상관관계만으로 인과관계를 가정하는 것은 유용하다" 는 언급은 심각하게 나이브하게 보일 수 있다. 반면 예측모형이 필요한 상황에서는 주어진 시점에서 가용한 정보에 제한이 있어 상관관계만을 파악할 수 있더라도 충분히 믿을 만한 예측이 나오고, 즉시로 적용할 수 있는 (그 시점에서의) 최선의 전략이 얻어진다. 시간이 지나 이러한 예측이 반복되다 보면 결과적으로 그 통찰은 설명모형에 가까워지면서 옳은 예측이 늘어나고 틀린 예측은 감소할 것이다. 물론 인과관계까지 입증됐을 때는 설명과 예측 모두가 가능해진다.

이것이 문제가 되는 것은 예측이 설명으로 오도되기 쉬울 때이다. X와 Y 사이에 상관관계가 명확한 반면 인과관계에 대해서는 의심받고 있다고 가정해 보자. "Y를 원한다면 X를 하면 된다" 식의 전략적 조언은 상관관계 정보만을 기초로 하는 예측적 조언임에도 불구하고, 만일 [[높으신 분들]]이나 정부 공권력 혹은 유명인사가 공식석상에서 그런 발언을 했다면, 혹은 대중에게 있어 두 변인 간의 인과관계가 통념적으로 인정되는 경우라면, 최선의 예측임에도 불구하고 인과관계가 오인되는 문제가 발생할 수 있다. 실제로 X가 증가할 때 Y가 증가하는 패턴이 발견됐다면 그 발언자는 충분히 합리적으로 그런 발언을 할 수 있겠지만, 이것이 대중적으로는 두 변인 간의 인과관계의 허위성을 은폐해 버릴 수도 있다. 상관관계 정보는 사회적으로 오용될 가능성이 크다는 것이다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

상관관계와 인과관계 (문단 편집)

캡챠